These notes were compiled as lecture notes for a course developed and taught at the University of the Southern California. They should be accessible to a typical engineering graduate student with a strong background in Applied Mathematics. The main objective of these notes is to introduce a student who is familiar with concepts in linear algebra and partial differential equations to select topics in deep learning. These lecture notes exploit the strong connections between deep learning algorithms and the more conventional techniques of computational physics to achieve two goals. First, they use concepts from computational physics to develop an understanding of deep learning algorithms. Not surprisingly, many concepts in deep learning can be connected to similar concepts in computational physics, and one can utilize this connection to better understand these algorithms. Second, several novel deep learning algorithms can be used to solve challenging problems in computational physics. Thus, they offer someone who is interested in modeling a physical phenomena with a complementary set of tools.
translated by 谷歌翻译
多语言神经文本到语音(NTTS)系统的基本设计决策是如何表示模型中的输入语言特征。查看文献中各种各样的方法,出现了两个主要范式,统一和单独的表示。前者在跨语言中使用一组共享的语音令牌,而后者为每种语言使用独特的语音令牌。在本文中,我们进行了一项全面的研究,比较了两种表示训练的多语言NTTS系统模型。我们的结果表明,统一方法始终在自然和口音方面始终获得更好的跨语性综合。单独的表示形式往往比统一的代币更大的令牌,这可能会影响模型容量。因此,我们进行了一项消融研究,以了解表示类型与令牌嵌入尺寸的相互作用。我们发现,两个范式之间的差异仅在一定阈值嵌入尺寸之上出现。这项研究提供了有力的证据,表明在构建多语言NTTS系统时,统一表示应该是首选的范式。
translated by 谷歌翻译
培训仅使用单语言语料库的多语言神经文本到语音(NTTS)模型已成为构建基于语音克隆的Polyglot NTTS系统的流行方式。为了训练这些模型,必须了解培训语料库的组成如何影响多语言语音综合的质量。在这种情况下,通常会听到诸如“包含更多西班牙数据有助于我的意大利综合,考虑到两种语言的亲密关系?”之类的问题。不幸的是,我们发现有关该主题缺乏完整性的现有文献。在目前的工作中,我们进行了一项广泛的消融研究,旨在了解培训语料库的各种因素(例如语言家族隶属关系,性别组成和演讲者的数量)如何有助于多面化综合的质量。我们的发现包括在大多数情况下首选女性扬声器数据的观察结果,并且在培训语料库中拥有更多来自目标语言的说话者并不总是有益的。此处的发现对于数据采购和语料库构建过程提供了信息。
translated by 谷歌翻译
控制铰接对象时控制其姿势对于电影虚拟现实或动画等应用至关重要。然而,操纵对象的姿势需要了解其基础结构,即其关节以及它们如何互相互动。不幸的是,假设要知道的结构,因为现有方法所做的,排除了在新的对象类别上工作的能力。我们建议通过观察它们从多个视图移动,没有额外的监督,例如联合注释或有关该结构的信息,从而了解先前看不见的对象的外观和结构。我们的洞察力是,相对于彼此移动的相邻部件必须通过接头连接。为了利用这一观察,我们将3D的物体部分塑造为椭圆体,这使我们能够识别关节。我们将这种明确表示与隐式的表示,该显式表示可以补偿引入的近似值。我们表明我们的方法为不同的结构,从四足动物到单臂机器人到人类工作。
translated by 谷歌翻译
使用单视图2D照片仅集合,无监督的高质量多视图 - 一致的图像和3D形状一直是一个长期存在的挑战。现有的3D GAN是计算密集型的,也是没有3D-一致的近似;前者限制了所生成的图像的质量和分辨率,并且后者对多视图一致性和形状质量产生不利影响。在这项工作中,我们提高了3D GAN的计算效率和图像质量,而无需依赖这些近似。为此目的,我们介绍了一种表现力的混合明确隐式网络架构,与其他设计选择一起,不仅可以实时合成高分辨率多视图一致图像,而且还产生高质量的3D几何形状。通过解耦特征生成和神经渲染,我们的框架能够利用最先进的2D CNN生成器,例如Stylega2,并继承它们的效率和表现力。在其他实验中,我们展示了与FFHQ和AFHQ猫的最先进的3D感知合成。
translated by 谷歌翻译
我们解决了预测动态场景视频的显着图的问题。我们注意到,从固定数量的观察者的凝视数据重建的地图的准确性随帧而变化,因为它取决于场景的内容。当有有限数量的观察者可用时,此问题尤其如此紧迫。在这种情况下,随着传统的深度学习方法,直接最大限度地减少预测和测量的显着性图之间的差异,导致对嘈杂数据过度接受。我们提出了一种噪声感知培训(NAT)范式,这些培训量量化和占帧特异性凝视数据不准确的不确定性。我们表明NAT在有限的培训数据可用时特别有利,在不同模型,丢失函数和数据集中有实验。我们还引入了基于视频游戏的显着数据集,具有富有的时间语义,每帧多个凝视吸引子。数据集和源代码可在https://github.com/nvlabs/nattacy上获得。
translated by 谷歌翻译